22. 异常值处理建议
异常值处理建议
异常值处理建议
以下是我在数据集中使用列(随机变量)的准则。
1. 绘制你的数据以确定是否有异常值。
2. 通过上述方法处理异常值。
3. 如果无异常值,且你的数据遵循正态分布,使用均值和标准差来描述你的数据集,并报告数据为正态分布。
#### 边注
如果你不确定你的数据是否是正态分布,有一种称为 正态分位图 normal quantile plots 的图,以及类似 Kolmogorov-Smirnov 检验 的统计方法可以帮助你理解你的数据是否是正态分布。实现这个检验不是本课程的教学内容,但可以稍作了解。
4. 如果你有偏态数据或异常值,则使用五数概括法来概括你的数据并报告异常值。